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HE: 【 目的 ] 利用 领域 专家 信任 和 相似 度 相 结 合 的 优势 ， 弥补 传统 协同 过 滤 推 荐 算法 在 推荐 准确 度 以 及 挖掘 长 
尾 商 品 方面 存在 的 不 足 。[ 方法 ] 选取 MovieLens PREN 0.9605 的 数据 集 ， 由 评分 记录 较 多 的 1 102 个 用 户 


对 2 920 部 电影 的 评分 记录 构成 , 利用 分 阶段 实验 法 求 


得 最 优 专 家 用 户 数量 及 推荐 权重 系数 a 值 ,， 并 结合 对 比分 


析 法 对 算法 的 性 能 进行 评测 。[ 结果 ] 实验 结果 表明 ,本 算法 的 推荐 结果 准确 率 和 覆盖 率 均 受 到 专家 用 户 数量 的 
影响 ， 且 当 推荐 权重 系数 为 0.6 时 推荐 准确 度 明显 优 于 传统 算法 ,同时 专家 用 户 比例 由 2% 上 升 至 20% 时 ,覆盖 率 
上 升 了 0.21, 说 明 算法 在 一 定 程度 上 显著 提高 了 推荐 系统 挖掘 长 尾 商品 的 能 力 。[ 局 限 】 未 考虑 到 不 同 领域 类 别 
之 间 可 能 存在 的 相关 性 。[ 结论 ] 该 算法 能 够 有 效 地 克服 数据 稀疏 性 和 冷 启动 问题 ,显著 提高 推荐 系统 的 推荐 质 


量 和 准确 度 。 
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随 着 个 性 化 推荐 系统 在 Amazon 、 豆 办 等 网 站 上 
的 成 功 应 用 , 加 之 各 种 个 性 化 推荐 关键 技术 的 发 展 ， 
个 性 化 推荐 的 研究 已 经 取得 了 巨大 进展 。 协 同 过 滤 推 
荐 算法 是 个 性 化 推荐 中 运用 最 为 成 熟 的 一 种 推荐 算 
法 ,然而 数据 稀 玻 性 和 冷 局 动 的 问题 ,在 很 大 程度 上 
影响 了 协同 过 滤 算 法 推荐 结果 的 准确 度 。 针 对 这 一 问 
题 , 现 有 研究 提出 了 多 种 解决 方法 , 诸如 优化 相似 度 
计算 方法 、 引 入 用 户 偏 好 、 基 于 用 户 聚 类 等 , 虽然 在 
解决 数据 稀 玲 性 和 冷 启 动 方 面 取得 了 较 好 的 效果 , 但 
是 由 于 传统 的 协同 过 滤 推 荐 算法 依据 相似 用 户 给 出 的 
推荐 结果 并 不 一 定 能 够 符合 用 户 的 偏好 ,其 推荐 结果 
并 没有 得 到 较 好 的 改善 。 同 时 , 优秀 的 推荐 算法 不 仅 
需要 准确 预测 用 户 的 需求 , 还 要 帮助 用 户 发 现 那 些 感 
兴趣 但 并 不 热门 的 商品 ， 即 对 长 尾 商 品 的 挖掘 。 


在 社交 网 络 中 存在 这 样 一 类 领域 专家 ,他们 阅历 
比较 广泛 , 或 者 在 菏 一 领域 有 很 强 的 专业 性 ， 具有 一 
定 的 威信 , 总 能 给 出 经 验 性 、 指 导 性 的 意见 。 人 们 也 
比较 倾向 于 听从 领域 专家 的 意见 ， 而 这 类 领域 专家 能 
够 更 客观 地 对 商品 进行 评分 , 更 少 地 受到 商品 的 社会 
化 要 素 影 响 , 对 个 性 化 推荐 具有 积极 的 推动 作用 。 现 
实生 活 中 , 用 户 不 仅 会 信任 某 一 类 人 群 ， 同 时 也 会 不 
信任 某 一 类 人 群 。 因 此 ,由 领域 专家 在 擅长 的 领域 做 
出 的 推荐 才 更 具有 可 信和 度 ， 而 用 户 在 不 同 的 领域 也 会 
选择 相信 不 同 的 领域 专家 。 

基于 领域 专家 信任 的 影响 , 本 文 认 为 在 推荐 过 程 
中 应 当 引 入 领域 专家 信任 , 并 提出 一 种 基于 领域 专家 
信任 与 相似 度 的 协同 过 滤 推 荐 算法 。 通 过 对 各 领域 专 
家 用 户 的 挖掘 ， 找 到 该 领域 中 与 目标 用 户 相似 的 领域 
专家 用 户 群体 , 结合 领域 专家 用 户 与 相似 用 户 共同 为 
目标 用 户 进 行 推荐 ,， 既 能 够 优化 数据 稀 玻 性 等 问题 ， 


通讯 作者 : 罗 琳 ，ORCID: 0000-0002-4857-9133, E-mail: luo126@126.com。 
* 本 文系 国家 社会 科学 基金 项 目 “ 数 字 图 书馆 标签 系统 的 语义 挖掘 研究 "(项 目 编号 : 12CTQ003) 的 研究 成 果 之 一 。 
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又 有 助 于 对 长 尾 商品 进行 控 据 
2 文献 回顾 


引入 信任 的 协同 过 滤 算 法 研究 中 ， 有 学 者 首先 从 
理论 的 角度 讨论 了 信任 之 于 协同 过 滤 算 法 的 必要 性 ， 
例如 ，Josang 等 站 对 能 够 获得 信任 度 和 声誉 的 系统 进 
行 综述 , 认为 信任 度 和 声誉 应 当 作为 安全 机 制 应 用 于 
协同 过 滤 系 统 中 。 也 有 学 者 通过 实验 , 验证 了 信任 有 
助 于 提升 协同 过 滤 算 法 的 准确 度 和 覆盖 率 , 例如 ， 
Zhang 等 中 和 吴 应 良 等 趾 将 用 户 间 接 信任 关系 和 社区 
特征 引入 到 协同 过 滤 算 法 中 , 并 验证 了 这 种 方式 对 协 
同 过 滤 算 法 的 推荐 准确 度 有 明显 提升 。 而 Massa SE, 
Hwang 等 站、Moradi 等 时 和 命 下 等 中 则 是 将 信任 度 权 
重 引 入 到 协同 过 滤 算 法 中 ,替代 传统 的 相似 度 作 为 加 
权 的 权重 ,并 通过 实验 验证 了 基于 信任 的 协同 过 滤 推 
荐 算法 可 以 提高 预测 准确 度 和 履 盖 率 。 但 是 这 一 类 研究 
未 能 涉及 到 协同 过 滤 推 荐 算法 面临 的 数据 稀 琉 性 和 冷 
启动 的 问题 , 以 及 推荐 算法 对 长 尾 商 品 的 挖掘 能 

通过 引入 信任 , 在 优化 协同 过 滤 推 荐 算法 的 数据 
稀 蚊 性 及 冷 启 动 问题 方面 , 杜 永 萍 等 由 在 传统 基于 用 
户 的 协同 过 滤 推 荐 算法 的 基础 上 , 引入 信任 关系 计算 ， 
设计 并 构建 一 个 集 用 户 声 望 信 任 和 用 户 局 部 信任 的 混 
和 信任 网 络 , 实现 了 对 协同 过 滤 推 荐 算法 稀疏 性 问题 
的 优化 。Jamali 等 四 构建 了 基于 信任 的 协同 过 滤 推 荐 
模型 TrustWalker 并 依据 Epinions 数据 集 对 模型 进行 
验证 , 结果 显示 TrustWalker PRAU TE ri X] fos in ESE [0] 8 
时 比 基 于 信任 的 推荐 方法 或 协同 过 滤 的 推荐 方法 表现 
更 加 优异 。 Chen 等 ("使 用 信任 与 不 信任 网 络 识别 可 靠 
用 户 , 优化 了 协同 过 滤 系 统 中 冷 启 动 的 问题 。Bedi 等 中 
基于 蚁 群 整合 用 户 间 的 动态 信任 和 最 优 邻 居 用 户 的 选 
择 , 提出 了 基于 信任 的 蚁 群 推荐 系统 ， 对 传统 协同 过 
滤 算 法 的 稀 玻 性 和 冷 启 动 问 题 进行 优化 。 此 外 ，Lai 
等 9 使 用 评分 信任 模型 和 明确 的 信任 准则 建立 了 一 
种 混合 的 个 人 信任 模型 , 解决 了 以 往 由 于 评分 记录 不 
足 而 对 协同 过 滤 算 法 推荐 结果 产生 的 负面 影响 。 景 民 


o 


算法 对 长 尾 商品 挖掘 能 力 的 提升 。 

综 上 所 述 , 运用 信任 解决 协同 过 滤 推 荐 算法 所 面 
临 的 数据 稀 足 性 、 冷 启动 、 推 荐 准确 度 等 算法 性 能 问 
i, 已 经 被 多 数 研究 所 肯定 , 但 这 些 研 究 中 聚焦 的 仅 
仅 是 用 户 之 间 直 接 与 间接 、 隐 性 与 显 性 的 信任 关系 ， 
并 未 涉及 领域 专家 信任 影响 , 同时 未 能 提升 推荐 算法 
对 长 尾 商 品 的 挖 据 能 力 。 本 文 认为 引入 每 一 个 项 目 领 
域 中 , 对 该 领域 贡献 评分 比较 多 、 比 较 可 靠 的 权威 领 
域 专家 ,在 对 项 目的 评分 预测 过 程 中 , 加 入 专家 信任 
值 权重 ， 能 够 更 好 地 提高 评分 预测 的 准确 性 ,并且 有 
利于 挖掘 出 长 尾 商 品 以 及 缓解 冷 启动 等 问题 。 


3 ”结合 领域 专家 信任 值 与 相似 度 的 协同 过 滤 

推荐 算法 

实证 研究 表明 加 入 用 户 的 信任 关系 可 以 极 大 地 
缓解 协同 过 滤 系 统 不 能 准确 为 新 用 户 推 荐 的 问题 。 
用 户 被 鼓励 与 其 他 用 户 相连 接 来 扩充 自己 的 信任 网 
络 , 但 是 用 户 应 该 选择 相信 谁 是 一 个 很 困难 的 决 
定 。Victor 等 (4 指出 社交 网 络 中 有 三 类 关键 人 物 , 分 
别 是 : 拥有 很 多 知识 的 专家 、 处 在 社交 网 络 中 心 位 
置 的 社交 达 人 、 拥 有 很 多 评分 记录 的 评分 达 人 , 并 
通过 实验 验证 了 这 三 类 关键 人 物 的 确 能 够 提高 推荐 
系统 的 推荐 效果 。 

因而 本 文 提出 将 社交 网 络 中 存在 的 专家 用 户 的 影 
响 力 运用 于 推荐 过 程 中 , 分 领域 计算 用 户 的 相似 度 ， 
并 结合 领域 专家 和 领域 相似 用 户 为 目标 用 户 进行 推 
荐 ， 即 基于 领域 专家 信任 与 相似 度 的 协同 过 滤 推 荐 算 
法 (Expert Trust and Similarity CF, ETS-CF), 该 算法 与 
基于 用 户 的 协同 过 滤 推 荐 算法 对 比如 图 1 所 示 。 
3.1 识别 项 目 领域 专家 用 户 

在 现实 生活 中 , 专家 的 意见 对 人 们 的 决策 也 有 很 
强 的 主导 作用 。 如 知 将 社会 网 络 中 的 人 群 分 为 两 类 : 
领导 者 (专家 用 户 ) 和 追随 者 , 追随 者 往往 易于 接受 领 
导 者 的 观点 ， 因 领导 者 具有 较 高 的 信任 度 , 常常 对 追 
随 者 的 喜好 具有 较 大 的 影响 。 在 协同 过 滤 系 统 中 , 评 


昌 等 六 提出 一 种 基于 专家 优先 信任 的 协同 过 滤 推 荐 算 
法 , 并 利用 GroupLens 的 数据 集 验 证 了 算法 在 预测 用 
户 评分 的 精度 和 成 功率 上 要 优 于 传统 的 最 近邻 法 。 这 
一 类 研究 验证 了 信任 因素 能 够 解决 协同 过 滤 推荐 算法 
面临 的 数据 稀疏 性 和 冷 启 动 的 问题 , 但 仍 未 研究 推荐 


现代 图 书 情报 技术 


判 一 个 用 户 是 否 为 专家 可 以 依据 该 用 户 的 项 目 评分 数 
量 和 评分 质量 ,通常 情况 下 ， 如 果 用 户 的 评分 数量 以 
及 质量 越 高 ， 其 成 为 专家 的 可 能 性 就 越 高 。 那 么 , 在 一 
个 领域 中 需要 最 先 找到 评分 记录 数 较 多 的 这 一 类 用 
户 , 然后 计算 每 个 用 户 的 评分 准确 度 。 


传统 基于 用 户 的 协同 过 滤 推 荐 算法 


用 户 项 目 
邻居 集 


基于 共同 
评分 项 目 


未 评分 项 目 预测 


] 户 相似 度 


评分 预测 已 
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基于 专家 信任 与 相似 度 的 协同 过 滤 推 荐 算法 


项 目 领域 | ,| 项 目 领域 
oar | | 专家 用 户 


用 户 项 目 | | 项 目 领 域 
评价 矩阵 JJP 


3j H js) 
专家 用 户 


图 1 两 类 推荐 算法 对 比 


在 领域 x 中 , 用户 u 对 项 目 i 做 出 的 每 一 次 评分 ， 
评估 其 准确 度 ,笔者 在 Billsus 等 号 ] 的 公式 基础 上 提出 
以 下 公式 : 


x | Tui T Ri vg | 2 
Pr Uc Ed iex (1) 
其 中 , ru 为 用 户 u 对 项 目 i 的 评分 ，Ri,, 为 项 目 i 
的 平均 评分 ，riay 为 项 目 i 的 最 高 评分 。 
关于 Rave 的 计算 , 首先 需要 对 偏离 评分 平均 值 较 
远 的 一 些 评分 数据 进行 剔除 处 理 ,笔者 在 景 民 昌 等 中 
的 公式 基础 上 ,提出 平均 评分 值 计算 公式 如 下 : 


i 1 
Rave x (2) 


专家 的 影响 度 的 测量 可 以 从 其 对 项 目的 累计 评分 
准确 度 来 计算 , 笔者 在 Billsus 等 03 和 景 民 虽 等 53 的 公 
式 基 础 上 , 提出 累计 评分 准确 度 公式 如 下 : 


M ER. 
PP) - 2 Lt | iex (3) 


max  u-l Tmax 


其 中 ， Mau 为 在 领域 x 中 所 有 用 户 中 评分 最 多 的 
用 户 的 评分 数量 ，M 为 用 户 u 在 领域 x 中 拥有 的 评分 
项 目 总 数 。 
32 ”基于 项 目 领域 的 用 户 相 似 度 计算 

本 文 将 用 户 共 同 评分 完成 的 项 目 进行 领域 分 类 ， 
基于 不 同 的 领域 计算 两 个 用 户 的 相似 度 ,， 笔者 在 
Pearson 相关 系数 09 和 Breese 等 中 "1 的 公式 基础 上 , 提 
出 基于 项 目 领 域 的 相似 度 计 算 公 式 如 下 : 

Di RDE - RO 


E lex — (4) 
2 aa Ri DUE 


iel iel 


sim* (u, v) = 


其 中 ,I 为 在 项 目 领 域 x P, 用户 u 和 用 户 v 共同 
评 过 分 的 项 目 集合 。r 为 用 户 u 对 项 目 i 的 评分 值 ， 
R WH u 在 领域 x 上 评分 的 平均 值 。 r,;，R* 同 理 。 
3.3 ”基于 领域 专家 信任 与 相似 度 的 推荐 算法 

在 进行 评分 预测 时 ,首先 将 专家 用 户 和 相似 性 用 
户 两 类 用 户 集合 区 分 开 来 , 然后 结合 这 两 类 人 物 的 共 
同 推荐 意见 进行 评分 预测 。 在 为 目标 用 户 选取 最 近邻 
居 时 , 不 但 要 选取 该 领域 专家 用 户 , 也 要 选取 该 领域 
与 目标 用 户 相似 的 用 户 。 同 时 , 依据 专家 信任 度 并 
利用 Best-k 近邻 技术 选取 邻居 集 ， 选 取信 任 度 最 大 
的 前 k 个 用 户 作为 专家 用 户 , 并 以 用 户 间 的 相似 度 
值 为 依据 选取 相似 用 户 , 选取 与 目标 用 户 相似 度 值 
最 大 的 前 n 个 用 户 作为 相似 用 户 。 结 合 领域 专家 信 
任 与 相似 度 的 推荐 流程 如 图 2 所 示 : 


用 户 历史 交互 数据 集合 


| 


分 领域 用 户 项 目 评分 数据 


E 


在 当前 领域 下 计算 每 个 在 当前 领域 计算 用 户 
用 户 的 专家 信任 度 之 问 的 相似 度 值 
找到 该 领域 的 专家 有 找到 目标 用 户 的 邻居 

kn 用 户 集合 


— —— 


对 未 评分 项 目 进行 评分 预测 


产生 已 排序 的 推荐 项 目 集合 


图 2 结合 领域 专家 信任 与 相似 度 的 推荐 流程 
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针对 冷 启动 用 户 和 非 冷 启动 用 户 分 别 有 不 同 的 推 
荐 算法 , 实现 如 下 : 

(1) 冷 启动 用 户 。 由 于 用 户 无 评分 历史 或 者 是 在 
案 的 评分 次 数 过 少 , 因而 无 法 得 知 用 户 感 兴趣 的 领域 ， 
则 将 各 领域 专家 用 户 的 建议 推荐 给 此 类 用 户 。 笔 者 在 
Ahni 的 公式 基础 上 ,提出 评分 预测 公式 如 下 : 


k 
Y Pr()xn; 
P0) = ex (5) 


k 
X Pr* (u) 
u-l 


Hep, PIG) 为 用 户 v 对 领域 x 中 项 目 i 的 预测 评 
IME, k 为 领域 x 中 专家 的 数量 ，Pr* (u) 为 专家 用 户 u 
的 专家 信任 度 , rui 为 专家 用 户 对 项 目 i 的 评分 值 。 

(2) 非 冷 启动 用 户 。 依 据 此 领域 下 专家 的 意见 以 
及 与 相似 用 户 的 意见 ， 分 领域 向 用 户 推荐 其 喜爱 的 项 
目 。 笔 者 在 Ahn03 公 式 基 础 上 ,提出 评分 预测 计算 公 
式 如 下 : 


k k 
3 Pr*(u)x(r,; -Ri +- o)», sim* (u, v) x (n, ; — Ri) 


PY GO) = RI. z T 
22, PX S9 C6) 
i iex (6) 
其 中 ，R* 为 用 户 u 在 领域 x 中 评分 的 平均 值 ， 
sim* (u, v) 为 用 户 u 55 HIP! v 在 领域 x 中 的 相似 值 。w 
是 用 来 调和 专家 用 户 与 相似 用 户 的 评分 权重 。 


4 ”实验 设计 


41 实验 数据 集 采 集 与 准备 

采用 GroupLens 提供 的 MovieLens 数据 集 对 算法 
进行 评测 。MovieLens 数据 集 有 三 种 不 同 容量 的 数据 
， 本 文采 用 中 等 大 小 数据 集 并 从 中 截取 的 部 分 数据 
， 并 且 在 实验 前 , 密集 化 处 理 了 数据 集 ， 最 终 选 取 
的 数据 集 为 评分 记录 较 多 的 1102 个 用 户 对 2 920 部 电 
影 的 评分 记录 , 共 包 含 的 126 784 条 电影 评分 记录 , 用 
户 的 评分 包括 5 个 等 级 , Mibi SED 0.9605. 此外, 通过 
观察 互联 网 上 电影 和 应 用 软件 的 下 载 规律 以 及 网 页 点 
击 量 与 商品 销售 规律 , 可 以 发 现 虽然 热门 的 物品 被 大 
多 数 用 户 追 捧 , 但 是 即使 很 不 热门 的 物品 也 会 有 部 分 
用 户 喜 欢 , 这 就 是 长 尾 分 布 现象 。 对 于 MovieLens Zi 
据 集 来 说 ,这 种 长 尾 现象 也 存在 , 如何 更 好 地 挖掘 长 


Nom 
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尾 商 品 是 推荐 系统 面临 的 重要 课题 。 
4.20 ”实验 评价 指标 

实验 采用 评分 准确 度 和 推荐 覆盖 率 来 评测 本 文 提 
出 的 推荐 算法 的 性 能 。 对 于 评分 准确 度 , 依旧 采取 和 平 
均 绝 对 误差 (Mean Absolute Error, MAE) 来 衡量 。 假 设 
在 测试 集中 , 为 测试 集 用 户 集 合 ，Rui 为 测试 集中 用 
P u 对 项 目 i 的 实际 评分 RP 为 在 训练 集中 运用 推 
荐 算法 得 到 的 用 户 u 对 项 目 i 的 预测 评分 MAE 公式 
如 下 07.191. 


I u,i 


MAE - DRE -Ra (0 

除了 对 推荐 算法 的 准确 度 进行 评估 , 还 进一步 评 
估 了 推荐 算法 的 覆盖 率 。 覆 盖 率 是 算法 对 长 尾 商品 挖 
掘 效 能 的 体现 , 覆盖 率 越 高 , 说 明 推 荐 算法 越 能 够 将 
一 些 经 典 的 不 知名 的 商品 推荐 给 用 户 。 和 覆盖 率 的 计算 
公式 Pa 如 下 : 


| U,euyR(u) | 
| 


覆盖 率 表示 最 终 的 推荐 列表 中 包含 的 物品 数 占 总 
的 项 目 集合 总 数 的 比例 。 当 所 有 项 目 基本 都 被 至 少 推 
荐 给 了 一 个 用 户 , 算法 的 覆盖 率 比 较 高 , 趋 于 100%。 
43 ”实验 步骤 

由 于 条 件 限制 ， 只 对 算法 进行 离线 实验 , 针对 算 
法 中 提出 的 领域 , 实验 中 将 电影 的 类 别 信息 作为 算法 
中 考虑 的 领域 ,具体 实验 步骤 如下: 

(1) 将 经 过 密集 处 理 完 成 的 MovieLens 数据 集 通 
过 随机 算法 均匀 分 成 M 份 (本 次 实验 中 M 取 10), 选取 
其 中 一 份 作为 测试 集 ， 其 余 M-1 份 作 为 训练 集 。 在 训 
练 集 上 训练 得 到 用 户 兴 趣 模型 ， 并 对 测试 集 上 的 用 户 
进行 即 10 折 交 叉 验 证 。 为 了 防止 拟 合 现象 对 实验 结 
果 的 干扰 , 实验 将 重复 进行 5 次 , 逐次 重新 随机 生成 
M 份 数据 集 , 将 5 次 实验 得 出 的 平均 值 作为 最 终 评 测 
结果 。 

D 寻找 每 一 类 电影 领域 的 专家 。 首 先 , 针对 
MovieLens 训练 集 数据 ， 根据 movies.dat 中 每 部 电影 所 
属 的 类 目 将 评分 数据 集 rating.dat 中 的 评分 记录 分 类 ， 
其 中 电影 类 目 共 包括 Action, Drama, Children 、 
Adventure 等 18 个 领域 。 其 次 , 将 某 一 电影 领域 用 户 
按照 评分 记录 数目 从 高 到 低 排序 , 分 别 计算 每 个 用 户 


(8) 


Coverage = 


的 评分 准确 度 ， 即 专家 信任 度 。 最 后 , 将 得 到 的 专家 信 
任 度 值 按 照 从 高 到 低 排序 , 选取 该 领域 最 具有 专业 性 
的 k 个 专家 用 户 ,专家 信任 度 作 为 最 终 评分 预测 中 的 
评分 权重 。 

(3) 计算 两 个 用 户 之 间 的 相似 度 。 首 先 需要 依据 
电影 类 别 建 立项 目 与 用 户 之 间 的 行为 记录 表 , 统计 在 
某 一 电影 类 别 下 ,对 每 部 电影 有 过 评分 行为 的 用 户 ， 
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用 户 选取 多 少 个 最 近邻 居 , 也 就 是 k 值 的 选取 , 然后 
为 用 户 推荐 k 个 近邻 用 户 感 兴趣 的 N 个 商品 。 程 序 最 
终 为 每 个 用 户 推荐 N 个 物品 , 由 于 推荐 列表 通常 都 不 
能 很 长 ,因此 N 值 固 定 为 10。 通 过 离线 实验 评测 当 相 
似 近 邻 k 选取 不 同 的 值 : 10、20、30、40、50, USER-CF 
算法 的 推荐 效果 , 详细 的 实验 数据 如 表 1 所 示 : 

表 1 基于 用 户 的 协同 过 滤 推 荐 算法 的 实验 结果 


得 到 记录 了 同一 个 电影 类 别 领 域 所 有 用 户 两 两 之 间 共 


同行 为 项 目的 总 表 。 随 后 , 针对 其 他 电影 领域 进行 同 
样 的 操作 ,最 终 得 到 每 一 个 电影 类 别 下 两 两 用 户 之 间 
共同 的 项 目 行为 记录 表 。 

(4) 获得 每 个 电影 领域 的 专家 用 户 并 记录 该 专家 
用 户 的 信任 度 ,同时 记录 下 所 有 电影 领域 每 两 个 用 户 
之 间 相 似 度 值 , 分 领域 为 每 个 用 户 推 荐 领域 专家 以 及 
与 其 最 相似 的 用 户 喜欢 的 N 个 物品 (按照 评分 值 排 
序 )。 当 无 法 获得 在 某 一 个 领域 与 用 户 相似 的 用 户 ， 则 
将 该 领域 专家 用 户 推 荐 的 物品 给 用 户 。 

(5) 对 该 次 推荐 进行 评测 , 分 别 计算 推 荐 系统 的 
Vi tf S DILE S 


5 实验 结果 与 分 析 


实验 主要 分 为 两 个 部 分 进行 : 

第 一 部 分 将 分 为 三 个 阶段 对 基于 领域 专家 信任 与 
相似 度 的 协同 过 滤 推 荐 算法 进行 实验 验证 。 第 一 个 阶 
段 , 通过 基于 用 户 的 协同 过 滤 推荐 算法 实验 确定 相似 
邻居 用 户 数量 k 值 。 第 二 个 阶段 ,固定 相似 邻居 用 户 
数量 , 依据 专家 用 户 数量 以 及 推荐 权重 系数 w 取 值 的 
不 同 从 而 导致 MAE 值 变化 曲线 , 确定 最 佳 的 专家 用 


k 值 MAE 值 Coverage 值 
10 0.8901 0.6783 
20 0.8827 0.5511 
30 0.8701 0.4935 
40 0.8643 0.4014 
50 0.8524 0.3005 

1.0 


024 meist Se (MAE) 
0.1 =t 4 as (Coverage) 


10 20 30 40 50 
邻居 用 户 k 取 值 


图 3 USER-CF 算法 MAE 与 Coverage 值 变 化 
由 图 3 可 知 , MAE 值 随 着 邻居 用 户 数 量 的 增加 而 


减少 , 准确 率 越 来 越 高 。Coverage 值 随 着 邻居 用 户 数 
量 增加 而 减少 ， 用 户 只 会 相信 与 自己 最 为 相似 用 户 的 


户 数量 和 推荐 权重 系数 a 值 。 第 三 个 阶段 , 衡量 专家 用 
户 数量 选取 对 推荐 覆盖 率 Coverage 值 的 影响 。 

第 二 部 分 对 三 种 不 同 推荐 算法 的 MAE 值 进 行 对 
比分 析 。 三 种 算法 分 别 为 : 传统 的 基于 用 户 的 协同 过 
滤 推 荐 算法 (USER-CF) 、 基 于 专家 信任 优先 的 协同 过 
滤 推 荐 算法 (EPTCF) 和 基于 领域 专家 信任 与 相似 度 的 
协同 过 滤 推 荐 算法 (ETS-CF)。 

5.1 实验 结果 

(1) 传统 的 协同 过 滤 推 荐 算法 (USER-CF) 实 验 结 
果 以 及 相似 用 户 数量 k 的 确定 。 

通过 MovieLens 数据 集 上 的 离线 实验 来 评测 
USER-CF 算法 的 性 能 。USER-CF 算法 涉及 到 为 每 个 


推荐 意见 ， 因 而 推荐 的 商品 数量 就 趋 于 减少 也 就 是 
推荐 系统 挖 据 长 尾 的 能 力 随 着 k 值 的 增加 而 减少 。 当 
k 值 为 30 时 推荐 的 性 能 比较 理想 ,同时 兼顾 了 比较 好 
的 准确 率 与 覆盖 率 。 

D 专家 用 户 数量 选取 以 及 不 同 权重 系数 a 对 推 
荐 准确 率 的 影响 。 

在 实验 过 程 中 , 针对 不 同 的 领域 首先 选取 不 同 数 
量 的 专家 用 户 为 普通 的 电影 用 户 进行 推荐 。 对 于 每 一 
个 领域 如 何 选取 专家 用 户 , 采取 的 办 法 是 当 某 一 个 领 
域 中 用 户 的 专家 信任 度 超过 一 个 预 设 的 阔 值 时 ， 该 用 
户 就 成 为 该 领域 的 专家 用 户 。 选 取 Action 电影 领域 的 
评分 记录 , 根据 给 出 的 专家 信任 度 计算 公式 , 计算 电 
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影 领域 每 个 用 户 的 专家 信任 度 。 用 户 专家 信任 度 分 布 
如 图 4 Bron: 


60.0096 


一 


50.0094 
3 40.00% 
E no 
Æ 30.0094 
EZ 20.0094 
bx 


1H 10.00% 
TII. 


= 


0.00% 


用 户 专家 信任 度 
图 4 用 户 专家 信任 度 分 布 情况 

通过 计算 每 个 用 户 的 专家 信任 度 ， 最 大 值 为 
0.803， 最 小 值 约 为 0.01。 由 图 4 可 知 , 其 中 约 58% 的 
用 户 专 家 信任 度 值 处 于 0.1 以 下 , 约 18% 的 用 户 信 任 
度 值 处 于 区 间 [0.1，0.2) 内 , RF 20% 左 右 的 用 户 信任 
度 值 高 于 0.2。 这 符合 帕 列 托 定 律 分 布 ， 信 任 度 低 的 用 
户 占 了 用 户 总 数 的 绝 大 部 分 。 

在 讨论 专家 用 户 的 数量 对 推荐 预测 准确 度 的 影响 
时 , 采取 第 二 种 方式 , 首先 将 每 个 用 户 的 相似 邻居 用 
户 数 量 固定 为 30, 每 个 用 户 推 荐 的 物品 长 度 固定 为 
10, 按照 专家 用 户 比 例 从 2%-20% 变 化 ,同时 对 权重 系 
数 a 分 别 取 0.2、0.4、0.6、0.8 等 4 种 不 同情 形 下 MAE 
值 变化 。 实 验 数据 如 表 2 所 示 : 

R2 不 同 专 家 用 户 比 例 与 a 取 值 下 MAE 值 变 化 


HPi 
ME 专家 用 
比例 ”2% 5% 8% 11% 14% 17% 20% 
afi 


0.2 0.8794 0.8421 0.8089 0.7722 0.7524 0.7599 0.7623 
0.4 0.8323 0.7990 0.7611 0.7323 0.7044 0.7102 0.7227 
0.6 0.8204 0.7807 0.7533 0.7211 0.6977 0.7044 0.7093 
0.8 0.8541 0.8327 0.8001 0.7623 0.7274 0.7301 0.7439 


如 图 5 所 示 ， 随 着 专家 数量 增多 ，MAE 值 有 明显 
幅度 减 小 , 用户 喜欢 的 电影 被 列 人 推荐 列表 中 ,说 明 
专家 数量 增多 , 可 以 提高 推荐 模型 的 准确 率 。 但 是 当 
专家 用 户 比例 超过 1496, MAE 值 又 开始 有 了 小 幅度 回 
H, 这 是 因为 当 专 家 用 户 占 比比 较 大 时 , 说 明 存在 有 
的 专家 用 户 信任 度 值 比较 低 , 这 会 造成 整体 的 预测 准 
确 度 有 所 下 降 。 
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图 5 专家 用 户 比 例 对 推荐 MAE 值 的 影响 
对 于 模型 中 专家 用 户 和 相似 用 户 权 重 平衡 因子 的 


选取 , 通过 图 5 可 以 看 出 : 过 高 或 者 过 低 都 会 导致 推 
荐 效果 不 理想 。 过 高 的 平衡 因子 会 降低 用 户 自 身 偏好 
因素 的 参与 作用 ， 而 过 多 地 依赖 于 专家 用 户 的 意见 ， 
因 忽 略 用 户 个 人 偏好 而 出 现 不 好 的 推荐 效果 。 过 低 的 
平衡 因子 会 降低 领域 专家 用 户 的 影响 力 ,特别 是 对 于 
冷 启 动用 户 来 说 ,会 得 不 到 很 好 的 推荐 效果 。 适 当 的 
平衡 因子 可 以 提高 推荐 系统 的 效果 ， 当 平衡 因子 a 取 
0.6 时 ,推荐 系统 的 效果 最 为 理想 。 因 而 用 户 除了 听取 
领域 内 与 其 相似 用 户 的 意见 ,也 会 更 加 信任 领域 内 权 
威 专 家 给 出 的 意见 。 

(3) 专家 用 户 数量 的 选取 对 推荐 算法 覆盖 率 
Coverage 值 的 影响 。 

根据 之 前 的 实验 结果 , 在 验证 专家 数量 选取 对 推 
荐 算法 有 覆盖 率 的 影响 时 , a 取 0.6， 相 似 用 户 数 选取 为 
30 ^r, 为 用 户 推荐 的 物品 长 度 为 10, 专家 比例 仍旧 按 
照 之 前 的 选取 规则 从 2%-20% 变 化 ,实验 结果 数据 如 
K 3 所 示 , 对 应 的 推荐 算法 的 Coverage 值 变 化 如 图 6 
所 示 。 


表 3 不 同 的 专家 用 户 比例 对 应 推荐 覆盖 率 


专家 用 户 比 例 Coverage 值 
296 0.6735 
596 0.7025 
8% 0.7527 
11% 0.7831 
14% 0.8204 
17% 0.8651 
20% 0.8842 


由 图 6 可 知 ,， 随 着 专家 数量 的 增加 , HER 
率 不 断 提高 , 专家 用 户 可 以 将 某 一 领域 内 不 热门 但 是 
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较为 经 典 、 价 值 高 的 电影 推荐 给 用 户 观看 。 这 与 纯粹 
的 基于 用 户 的 协同 过 滤 推 荐 不 同 只 会 把 相似 用 户 认 
为 特别 好 的 电影 推荐 给 目标 用 户 ,不 利于 发 掘 用 户 兴 


趣 的 多 样 性 和 挖掘 出 长 尾 商 品 。 因 此 , 本 文 提出 的 扒 
09 荐 算法 考虑 专家 用 户 的 影响 力 , 在 一 定 程度 上 提高 了 
s 推荐 系统 控 据 长 尾 物品 的 能 力 。 
52 不 同 推荐 算法 实验 结果 比较 
1 选取 三 种 推荐 算法 ,对 其 推荐 准确 度 方面 进行 对 
$^ 比 。 三 种 算法 分 别 为 : 传统 的 基于 用 户 的 协同 过 滤 扒 
0.6 荐 算法 (USER-CF)、 基 于 专家 信任 优先 的 协同 过 波 推 
荐 算法 (EPT-CF) 和 基于 领域 专家 信任 与 相似 度 的 协同 
s 过 滤 推 荐 算法 (ETS-CF)。 按 照 上 述 实验 结果 在 ETS-CF 


299 5% 8% 11% 14% 17% 20% 
专家 用 户 比 例 (%) 


H6 专家 用 户 数量 对 推荐 履 盖 率 的 影响 


推荐 算法 实验 中 取 a 值 为 0.6, 设置 不 同 的 相似 邻居 ( 专 
家 ) 数 量 参数 k， 三 种 推荐 算法 推荐 的 准确 率 MAE fü 
变化 如 表 4 所 示 : 


表 4 不 同 邻居 (专家 ) 个 数 下 三 种 推荐 算法 MAE 值 变化 


C 
" 相似 (专家 ) 
qm MAE 
Lu 但 用 户 个 数 5 10 15 20 25 30 35 40 
N 推荐 算法 
B USER-CF 0.9043 0.8901 0.8882 0.8827 0.8779 0.8701 0.8660 0.8643 
人 EPT-CF 0.8523 0.8331 0.8201 0.8114 0.8099 0.8071 0.8021 0.7905 
ETS-CF 0.8117 0.7993 0.7504 0.7303 0.7111 0.7009 0.7123 0.7201 
M 较 少 时 ， 基 于 领域 专家 信任 与 相似 度 的 协同 过 滤 推 荐 
算法 的 准确 度 有 明显 提升 ， 主 要 是 因为 本 文 提 出 的 算 
0.9 


A 
07. 77 USER-CF 
=E EPT-CF 
=t- ETS-CF 


À 
~ 一 A A. 请 一 一 一 全 


5 10 15 20 25 30 35 40 
相似 (专家 ) 用 户 数量 
图 7 三 种 推荐 算法 在 不 同 k 值 下 的 MAE 值 


图 7 对 比分 析 可 知 ， 随 着 相似 (专家 ) 用 户 数量 
的 增多 , 各 算法 的 MAE 值 都 是 不 断 减 小 ,推荐 算法 的 
准确 度 得 到 提升 。 但 是 当 k 值 增加 到 一 定 程度 , MAE 
减 小 的 幅度 趋 于 平缓 , 这 是 由 于 与 目标 用 户 最 为 相似 
的 用 户 推 荐 意见 影响 比较 大 。 总 体 上 ,基于 领域 专家 


x 


法 考虑 了 专家 用 户 的 意见 ， 从 专家 用 户 的 选取 规则 中 
可 以 看 出 , 专家 用 户 是 在 某 一 领域 能 够 给 出 公正 公平 
见解 的 一 类 人 和 群 ,即便 在 邻居 用 户 相 对 较 少 的 情况 下 ， 
也 能 为 用 户 做 出 比较 准确 的 推荐 。 


6 结 语 


针对 以 往 协同 过 滤 算 法 中 存在 的 问题 , 本文 提出 
基于 领域 专家 信任 与 相似 度 的 协同 过 滤 推 荐 算法 , 并 
对 该 算法 利用 MovieLens 数据 集 进行 模拟 实验 , 首先 
对 算法 中 专家 用 户 数 量 以 及 推荐 权重 系数 a 进行 确定 ， 
然后 对 三 类 不 同 的 协同 过 滤 推 荐 算法 的 实验 结果 进行 
对 比分 析 。 结 果 显 示 , 本 文 提出 的 基于 领域 专家 信任 
与 相似 度 的 协同 过 滤 推 荐 算法 ,推荐 结果 的 准确 率 和 
覆盖 率 均 受 到 专家 用 户 数 量 的 影响 , 在 专家 信任 度 值 


信任 与 相似 度 的 协同 过 滤 推 荐 算法 在 预测 评分 准确 度 
上 均 优 于 其 余 两 种 算法 。 特 别 是 ， 当 邻居 用 户 数量 比 


可 接受 的 范围 内 ， 专 家 用 户 数量 越 多 , 推荐 效果 越 好 。 
同时 , 通过 与 基于 用 户 的 协同 过 滤 推 荐 算法 、 基 于 专 
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家 信任 优先 的 协同 过 滤 推 荐 算法 进行 对 比 ， 发 现 本 
文 提 出 的 算法 在 推荐 准确 度 方面 明显 高 于 前 两 个 算 
法 ,并 在 一 定 程 度 上 提高 了 推荐 系统 挖掘 长 尾 商品 
的 能 力 。 

但 是 , 本 文 提出 的 算法 仍然 存在 一 定 的 局 限 性 。 
该 推荐 是 基于 项 目 领域 类 别 的 推荐 , 并 未 考虑 到 不 同 
领域 类 别 之 间 可 能 存在 的 相关 性 , 在 实现 跨 领域 精准 
推荐 方面 存在 一 定局 限 ; 领域 专家 用 户 的 评分 至 关 重 
要 , 算法 启动 初期 如 果 不 涉 及 领域 专家 用 户 的 参与 ， 
算法 将 无 法 解决 “ 冷 启 动 ” 的 问题 ,此 时 和 传统 算法 在 
“ 冷 启动 ”方面 没有 本 质 差别 。 

依托 于 本 文 算法 , 笔者 未 来 还 将 在 以 下 方面 做 进 
一 步 的 研究 。 针 对 人 们 日 渐 增 加 的 情感 感知 需求 , 本 
文 只 考虑 了 项 目 类 别 情境 ,而 诸如 其 他 的 情境 因素 ， 
例如 时 间 、 地 点 等 ,也 会 对 推荐 结果 有 显著 的 影响 ， 那 
A, 如何 有 效 地 将 其 他 情境 因素 运用 于 个 性 化 推荐 中 
在 未 来 是 一 个 重要 的 方向 。 在 现实 生活 中 ,网 站 的 数 
据 量 将 会 远 远 大 于 MovieLens 数据 集 , 数据 关系 也 更 
加 复杂 ,如何 优 化 该 推荐 算法 的 可 扩展 性 及 复杂 度 等 
问题 ， 是 一 个 重要 的 研究 课题 。 
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A Collaborative Filtering and Recommendation Algorithm Using 
Trust of Domain-Experts and Similarity 


Tan Xueqing Zhang Lei Huang Cuicui Luo Lin 
(School of Information Management, Wuhan University, Wuhan 430072, China) 


Abstract: [Objective] This paper tries to improve the performance of traditional collaborative filtering and 
recommendation algorithm. [Methods] We used the MovieLens dataset to evaluate the proposed algorithm. First, chose 
datasets with sparse degree of 0.9605, which included scoring records of 1,102 users for 2,920 movies. Second, identified 
the optimal number of expert users and recommended weight coefficient alpha value with series of experiments. Finally, 
evaluated the algorithm's performance with comparative method. [Results] The precision of the algorithm were 
influenced by the expert users. When the recommended weight coefficient value was 0.6, the precision of the new 
algorithm was better than the traditional ones. Once the propotion of expert users increased from 2% to 20%, the coverage 
value increased by 0.21. Thus, the new algorithm could analyze the long tail goods more effectively. [Limitations] We 
did not take into account the possible correlation among different categories. [Conclusions] The proposed algorithm 
could effectively solve the data sparsity and cold start issues, which significantly improve the performance of the 
recommendation system. 


Keywords: Personalized recommendation Collaborative filtering Domain-Expert Similarity 
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